プロダクトの信頼性に関する技術的なオーナーシップを持ち、機能開発チームと密に連携しながら、以下のミッションをリードすることをお任せします。
【具体的には】
・SLO/SLIの策定と運用:サービスレベル目標を定義し、エラーバジェットを基にした開発・リリースプロセスの推進
・モニタリングとオブザーバビリティの強化:DataDogやSentryを活用し、システムの健全性を可視化。障害の早期発見と原因究明を迅速化する仕組みの構築・改善
・インシデント対応と改善活動の推進:障害発生時の対応プロセスをリードし、ポストモーテムを通じて恒久的な再発防止策の推進
・Toil(手作業)の削減と自動化: 運用に関わる反復的な手作業を特定し、自動化ツールやスクリプトの開発
・信頼性・スケーラビリティの高いインフラ設計・構築: Google Kubernetes EngineやCloudRunなどのコンテナ技術と、TerraformによるIaCを駆使し、スケーラブルで耐障害性の高いインフラの構築・運用
・CI/CDパイプラインの最適化: CloudBuildやGitHub Actionsを用いたデプロイプロセスの高速化と安全性を向上させ、開発チームのアジリティの向上
・パフォーマンスチューニングとキャパシティプランニング: 負荷テストの実施、ボトルネックの特定・解消、事業の成長予測に基づいたキャパシティプランニングの実施
※ご志向や適性、戦略・組織状況に応じて期待役割を調整させていただきます。